智能论文笔记

NET-FLEET: Achieving Linear Convergence Speedup for Fully Decentralized Federated Learning with Heterogeneous Data

Xin Zhang , Minghong Fang , Zhuqing Liu , Haibo Yang , Jia Liu , Zhengyuan Zhu

分类：机器学习

2022-08-17

由于其在数据隐私保护，有效的沟通和并行数据处理方面的好处，联邦学习（FL）近年来引起了人们的兴趣。同样，采用适当的算法设计，可以实现fl中收敛效应的理想线性加速。但是，FL上的大多数现有作品仅限于I.I.D.的系统。数据和集中参数服务器以及与异质数据集分散的FL上的结果仍然有限。此外，在完全分散的FL下，与数据异质性在完全分散的FL下，可以实现收敛的线性加速仍然是一个悬而未决的问题。在本文中，我们通过提出一种称为Net-Fleet的新算法，以解决具有数据异质性的完全分散的FL系统，以解决这些挑战。我们算法的关键思想是通过合并递归梯度校正技术来处理异质数据集，以增强FL（最初旨在用于通信效率）的本地更新方案。我们表明，在适当的参数设置下，所提出的净型算法实现了收敛的线性加速。我们进一步进行了广泛的数值实验，以评估所提出的净化算法的性能并验证我们的理论发现。

translated by 谷歌翻译

GRiT: A Generative Region-to-text Transformer for Object Understanding

Jialian Wu , Jianfeng Wang , Zhengyuan Yang , Zhe Gan , Zicheng Liu , Junsong Yuan , Lijuan Wang

分类：计算机视觉

2022-12-01

This paper presents a Generative RegIon-to-Text transformer, GRiT, for object understanding. The spirit of GRiT is to formulate object understanding as <region, text> pairs, where region locates objects and text describes objects. For example, the text in object detection denotes class names while that in dense captioning refers to descriptive sentences. Specifically, GRiT consists of a visual encoder to extract image features, a foreground object extractor to localize objects, and a text decoder to generate open-set object descriptions. With the same model architecture, GRiT can understand objects via not only simple nouns, but also rich descriptive sentences including object attributes or actions. Experimentally, we apply GRiT to object detection and dense captioning tasks. GRiT achieves 60.4 AP on COCO 2017 test-dev for object detection and 15.5 mAP on Visual Genome for dense captioning. Code is available at https://github.com/JialianW/GRiT

translated by 谷歌翻译

Language-Assisted 3D Feature Learning for Semantic Scene Understanding

Junbo Zhang , Guofan Fan , Guanghan Wang , Zhengyuan Su , Kaisheng Ma , Li Yi

分类：计算机视觉

2022-11-25

Learning descriptive 3D features is crucial for understanding 3D scenes with diverse objects and complex structures. However, it is usually unknown whether important geometric attributes and scene context obtain enough emphasis in an end-to-end trained 3D scene understanding network. To guide 3D feature learning toward important geometric attributes and scene context, we explore the help of textual scene descriptions. Given some free-form descriptions paired with 3D scenes, we extract the knowledge regarding the object relationships and object attributes. We then inject the knowledge to 3D feature learning through three classification-based auxiliary tasks. This language-assisted training can be combined with modern object detection and instance segmentation methods to promote 3D semantic scene understanding, especially in a label-deficient regime. Moreover, the 3D feature learned with language assistance is better aligned with the language features, which can benefit various 3D-language multimodal tasks. Experiments on several benchmarks of 3D-only and 3D-language tasks demonstrate the effectiveness of our language-assisted 3D feature learning. Code is available at https://github.com/Asterisci/Language-Assisted-3D.

translated by 谷歌翻译

Distributionally Robust Offline Reinforcement Learning with Linear Function Approximation

Xiaoteng Ma , Zhipeng Liang , Li Xia , Jiheng Zhang , Jose Blanchet , Mingwen Liu , Qianchuan Zhao , Zhengyuan Zhou

分类：机器学习 | 人工智能 | (统计)机器学习

2022-09-14

在阻碍强化学习（RL）到现实世界中的问题的原因之一，两个因素至关重要：与培训相比，数据有限和测试环境的不匹配。在本文中，我们试图通过分配强大的离线RL的问题同时解决这些问题。特别是，我们学习了一个从源环境中获得的历史数据，并优化了RL代理，并在扰动的环境中表现良好。此外，我们考虑将算法应用于大规模问题的线性函数近似。我们证明我们的算法可以实现$ O（1/\ sqrt {k}）$的次级临时性，具体取决于线性函数尺寸$ d $，这似乎是在此设置中使用样品复杂性保证的第一个结果。进行了不同的实验以证明我们的理论发现，显示了我们算法与非持bust算法的优越性。

translated by 谷歌翻译

SATformer: Transformers for SAT Solving

Zhengyuan Shi , Min Li , Sadaf Khan , Hui-Ling Zhen , Mingxuan Yuan , Qiang Xu

分类：人工智能 | 机器学习

2022-09-02

在本文中，我们提出了Satformer，这是一种基于新颖的变压器解决方案，可用于布尔（SAT）解决方案。与现有的基于学习的SAT求解器不同，在问题实例级别上学习的satformer学习了难以满足的问题实例的最低限度不满意的内核（MUC），这些实例为这些问题的因果关系提供了丰富的信息。具体而言，我们应用图形神经网络（GNN）以在连接正常格式（CNF）中获得条款的嵌入。层次变压器体系结构应用于子句嵌入以捕获条款之间的关系，并且当组成UNSAT核心的条款在一起时，自我发项权的权重被学到了很高，并将其设置为低。通过这样做，Satformer有效地了解了SAT预测条款之间的相关性。实验结果表明，Satformer比现有的基于端到端学习的SAT求解器更强大。

translated by 谷歌翻译

HTML版本

Optimal Diagonal Preconditioning: Theory and Practice

Zhaonan Qu , Wenzhi Gao , Oliver Hinder , Yinyu Ye , Zhengyuan Zhou

分类：机器学习 | (统计)机器学习

2022-09-02

预处理一直是优化和机器学习方面的主食技术。它通常会减少其应用于矩阵的条件数，从而加快优化算法的收敛性。尽管实践中有许多流行的预处理技术，但大多数人缺乏降低病数的理论保证。在本文中，我们研究了最佳对角线预处理的问题，以分别或同时分别或同时缩放其行或列来实现任何全级矩阵的条件数量的最大降低。我们首先将问题重新将问题重新制定为一个准凸出问题，并提供了一种基线一分配算法，该算法在实践中易于实现，其中每次迭代都包含SDP可行性问题。然后，我们建议使用$ o（\ log（\ frac {1} {\ epsilon}）））$迭代复杂度提出多项式时间潜在的降低算法，其中每个迭代均由基于Nesterov-todd方向的牛顿更新组成。我们的算法基于该问题的表述，该问题是von Neumann最佳生长问题的广义版本。接下来，我们专注于单方面的最佳对角线预处理问题，并证明它们可以作为标准双SDP问题配方，我们应用了有效的定制求解器并研究我们最佳的对角线预处理的经验性能。我们在大型矩阵上进行的广泛实验表明，与基于启发式的预处理相比，最佳对角线预处理在减少条件数方面的实际吸引力。

translated by 谷歌翻译

Learning to Order for Inventory Systems with Lost Sales and Uncertain Supplies

Boxiao Chen , Jiashuo Jiang , Jiawei Zhang , Zhengyuan Zhou

分类：机器学习

2022-07-10

我们考虑了一个固定的销售库存控制系统，该系统在计划中$ t $上有交货时间$ l $。供应不确定，并且是订单数量（由于随机产量/容量等）的函数。我们的目标是最大程度地减少$ t $ - 周期成本，即使在已知的需求和供应分布下，该问题也已知在计算上是棘手的。在本文中，我们假设需求和供应分布均未知并开发出一种计算高效的在线学习算法。我们表明，我们的算法在$ O（l+\ sqrt {t}} $时，我们的算法（即我们的算法成本与最佳政策的成本之间的性能差异）（t）$。我们这样做1）显示我们的算法成本最多，最多$ o（l+\ sqrt {t}）$对于任何$ l \ geq 0 $，与完整信息下的最佳恒定订单策略相比以及广泛使用的算法）和2）利用其现有文献的已知绩效保证。据我们所知，有限的样本$ O（\ sqrt {t}）$（$ l $中的多项式）遗憾的是，在在线库存控制文献中以前不知道针对最佳策略的基准标记。这个学习问题的一个关键挑战是，可以审查需求和供应数据。因此，只能观察到截短的值。我们通过证明在订单数量$ q^2 $中生成的数据允许我们模拟全部$ q^2 $的性能，还可以模拟所有$ q^1 $，从而避免了这一挑战。 $，即使在数据审查下，也可以获取足够信息的关键观察。通过建立高概率耦合参数，我们能够在有限的时间范围内评估和比较其稳定状态下不同顺序策略的性能。由于该问题缺乏凸度，因此我们开发了一种活跃的消除方法，可以适应地排除次优的解决方案。

translated by 谷歌翻译

TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer

Jiajun Deng , Zhengyuan Yang , Daqing Liu , Tianlang Chen , Wengang Zhou , Yanyong Zhang , Houqiang Li , Wanli Ouyang

分类：计算机视觉

2022-06-14

在这项工作中，我们探索了用于视觉接地的整洁而有效的基于变压器的框架。先前的方法通常解决了视觉接地的核心问题，即具有手动设计的机制，即多模式融合和推理。这样的启发式设计不仅复杂化，而且使模型容易过度拟合特定的数据分布。为了避免这种情况，我们首先提出了TransVG，该TransVG通过变压器建立了多模式的对应关系，并通过直接回归框坐标来定位引用区域。我们从经验上表明，复杂的融合模块可以用具有更高性能的变压器编码层的简单堆栈代替。但是，TransVG中的核心融合变压器是针对Uni-Modal编码器的独立性，因此应在有限的视觉接地数据上从头开始训练，这使得很难优化并导致次优性能。为此，我们进一步介绍了TransVG ++以进行两倍的改进。一方面，我们通过利用Vision Transformer（VIT）进行视觉功能编码来将框架升级到一个纯粹的基于变压器的框架。对于另一个人来说，我们设计了语言有条件的视觉变压器，以去除外部融合模块，并重用Uni-Modal vit进行中间层的视觉融合。我们对五个普遍数据集进行了广泛的实验，并报告一系列最先进的记录。

translated by 谷歌翻译

DeepTPI: Test Point Insertion with Deep Reinforcement Learning

Zhengyuan Shi , Min Li , Sadaf Khan , Liuzheng Wang , Naixing Wang , Yu Huang , Qiang Xu

分类：机器学习 | 人工智能

2022-06-07

测试点插入（TPI）是一种可增强可测试性的技术，特别是对于逻辑内置的自我测试（LBIST），由于其相对较低的故障覆盖率。在本文中，我们提出了一种基于DeepTPI的Deep Greatherions学习（DRL）的新型TPI方法。与以前基于学习的解决方案将TPI任务作为监督学习问题不同，我们训练了一种新颖的DRL代理，即实例化为图神经网络（GNN）和深Q学习网络（DQN）的组合，以最大程度地提高测试覆盖范围改进。具体而言，我们将电路模型为有向图并设计基于图的值网络，以估计插入不同测试点的动作值。 DRL代理的策略定义为选择具有最大值的操作。此外，我们将预先训练模型的一般节点嵌入到增强节点特征，并为值网络提出专用的可验证性注意力机制。与商业DFT工具相比，具有各种尺度的电路的实验结果表明，DEEPTPI显着改善了测试覆盖范围。这项工作的代码可在https://github.com/cure-lab/deeptpi上获得。

translated by 谷歌翻译

GIT: A Generative Image-to-text Transformer for Vision and Language

Jianfeng Wang , Zhengyuan Yang , Xiaowei Hu , Linjie Li , Kevin Lin , Zhe Gan , Zicheng Liu , Ce Liu , Lijuan Wang

分类：计算机视觉

2022-05-27

在本文中，我们设计和训练生成的图像到文本变压器Git，以统一视觉语言任务，例如图像/视频字幕和问题答案。尽管生成模型在预训练和微调之间提供了一致的网络体系结构，但现有工作通常包含复杂的结构（Uni/多模式编码器/解码器），并取决于外部模块，例如对象检测器/标记器和光学角色识别（OCR））。在git中，我们将体系结构简化为一个图像编码器，而在单语言建模任务下将架构简化为一个文本解码器。我们还扩展了预训练数据和模型大小，以提高模型性能。没有铃铛和哨子，我们的git在12个具有挑战性的基准下建立了新的艺术状态。例如，我们的模型在文本贴图上首次超过了人类的表现（138.2 vs. 125.5在苹果酒中）。此外，我们提出了一种新的基于一代的图像分类和场景文本识别的方案，在标准基准上实现了不错的表现。

translated by 谷歌翻译